智能论文笔记

在现实世界中，道路使用者的轨迹预测很具有挑战性，因为它们的运动模式是随机且复杂的。以前以行人为导向的作品已经成功地模拟了行人之间的复杂交互作用，但是当涉及其他类型的道路使用者（例如，汽车，骑自行车的人等）时，无法预测轨迹，因为他们忽略了用户类型。尽管最近的一些作品与用户标签信息构建了密集连接的图形，但它们遭受了多余的空间相互作用和时间依赖性。为了解决这些问题，我们提出了多类SGCN，这是一种基于稀疏的图形卷积网络的多级轨迹预测方法，该方法考虑了速度和代理标签信息，并使用新颖的交互掩码来适应基于空间和时间连接的基础。在他们的互动分数上。所提出的方法在斯坦福无人机数据集上大大优于最先进的方法，提供了更现实和合理的轨迹预测。

translated by 谷歌翻译

You Only Need One Detector: Unified Object Detector for Different Modalities based on Vision Transformers

Xiaoke Shen , Zhujun Li , Jaime Canizales , Ioannis Stamos

分类：计算机视觉

2022-07-03

大多数系统都使用不同的模型来用于不同的模式，例如用于处理RGB图像的一种模型和一个用于深度图像的模型。同时，最近的一些作品发现，一个模式的相同模型可以在跨模态转移学习的帮助下用于另一种模式。在本文中，我们进一步发现，通过将视觉变压器与交叉/间模式传输学习一起使用，统一检测器在使用不同的模态作为输入时可以实现更好的性能。统一模型很有用，因为我们不需要维护机器人技术的单独模型或权重，因此它更有效。我们统一的机器人技术系统的一个应用程序场景可以是：如果没有任何模型体系结构和模型权重更新，机器人可以在夜间在白天和深度传感器中使用RGB摄像机或RGB摄像头和深度传感器平稳切换。 Sun RGB-D数据集的实验显示：我们的统一模型不仅有效，而且基于SunRGBD16类别的MAP50具有相似或更好的性能：与RGB进行比较，只有一个，我们的rgb稍差（52.3 $ \ to，to to to $ 51.9）。与点云相比，我们的性能相似（52.7 $ \至$ 52.8）;当使用这项工作中提出的新型模式混合方法时，我们的模型可以通过3.1（52.7 $ \至$ 55.8）的绝对改进获得明显更好的性能，与先前的最佳结果相比。代码（包括培训/推理日志和模型检查点）可用：\ url {https://github.com/liketheflower/yonod.git}

translated by 谷歌翻译